了解深度学习的理论研究非常重要。在这项工作中,我们发现了一个嵌入原则,即nn的损失格局“包含”浅NN损失景观的所有关键点。我们发现的关键工具是在这项工作中提出的关键起重操作员,该操作员将网络的任何关键点映射到任何更深层网络的关键流形,同时保留输出。该原则为许多广泛观察到的DNN行为提供了新的见解。关于深层网络的易于培训,我们表明可以将NN的局部最低限制为更深的NN的严格鞍点。关于批准归一化的加速度效应,我们证明了批处理的归一化有助于避免通过抑制层线性化来从较浅的NN中提起的临界歧管。我们还证明,增加训练数据会缩小临界歧管,这可能导致训练加速,如实验中所示。总体而言,我们对深度嵌入原则的发现发现了深度学习损失格局的深度层次结构,这为进一步研究DNN的深度作用提供了坚实的基础。
translated by 谷歌翻译
由于极大数量的参数和评估标准和再现性,机器学习长期以来被视为黑盒子,用于预测燃烧化学动力学和缺乏评估标准和再现性。目前的工作旨在了解关于深度神经网络(DNN)方法的两个基本问题:DNN需要的数据以及DNN方法的一般数据。采样和预处理确定DNN训练数据集,进一步影响DNN预测能力。目前的工作建议使用Box-Cox转换(BCT)来预处理燃烧数据。此外,这项工作比较了在没有预处理的情况下进行了不同的采样方法,包括蒙特卡罗方法,歧管采样,生成神经网络方法(Cycle-GaN)和新提出的多尺度采样。我们的研究结果表明,通过歧管数据训练的DNN可以以有限的配置捕获化学动力学,但不能对扰动牢固,这对于与流场联系的DNN是不可避免的。蒙特卡罗和循环甘套采样可以覆盖更宽的相位空间,但不能捕获小规模的中间物种,产生差的预测结果。基于没有特定火焰仿真数据的多尺度方法的三层DNN,允许在各种场景中预测化学动力学并在时间的演变期间保持稳定。该单个DNN易于用几个CFD代码实现并在各种燃烧器中验证,包括(1)。零维自动化,(2)。一维自由传播火焰,(3)。具有三重火焰结构的二维喷射火焰,和(4)。三维湍流升降火焰。结果证明了预先训练的DNN的令人满意的准确性和泛化能力。 DNN和示例代码的FORTRAN和PYTHON版本在补充中附加了再现性。
translated by 谷歌翻译
提出了一种基于深度学习的模型减少(DeepMR)用于简化化学动力学的方法,并使用高温自动点火,完全搅拌反应器(PSR)和一维自由传播的正庚烷/空气混合物的一致性。减少机制被建模为布尔空间的优化问题,其中布尔向量,与物种对应的每个条目表示减少的机制。优化目标是最小化给定考虑到一组预选的基准量的误差的机制尺寸。 DeepMR的关键思想是使用深度神经网络(DNN)来制定优化问题中的目标函数。为了有效地探索高维布尔空间,实现了一种迭代的DNN辅助数据采样和DNN训练过程。结果表明,DNN辅助显着提高了采样效率,仅为10 ^ {34}美元的样本中选择了10 ^ 5美元的样品,以实现足够的准确性。结果证明了DNN识别关键物种的能力,合理预测机制性能降低。训练有素的DNN通过解决反向优化问题,保证了最佳减少的机制。通过比较点火延迟时间,Laminar火焰速度,PSR的温度,得到的骨骼机制具有更少的物种(45种),但与通过路径通量分析(PFA)方法获得的骨骼机制(56种)相同的精度水平。另外,如果仅考虑大气,近化学计量条件(0.6和1.2之间的等效比),则骨骼机构可以进一步减少到28种。 DeepMR提供了一种进行模型减少的创新方法,并演示了燃烧区域中数据驱动方法的巨大潜力。
translated by 谷歌翻译
我们证明了深度神经网络(NNS)的损失景观的一般嵌入原理,其解除了NNS的损失景观的层次结构,即NN的损失景观包含所有较窄NN的所有关键点。通过构建一类临界嵌入来获得该结果,该临界嵌入物将较窄的Nn的任何临界点映射到具有相同输出功能的目标Nn的临界点。通过发现广泛的一般兼容性嵌入式,我们提供了嵌入来自NNS的关键点的关键子多种尺寸的总估计。我们进一步证明了任何临界嵌入的Irfreversiblility属性,即临界点的Hessian矩阵的负/零/正小叶值的数量可能增加,但由于NN通过嵌入越来越宽,因此从未减少。使用一般兼容的临界嵌入的特殊实现,我们证明了一个严格的必要条件,以便是一个完全不变的临界点,从未成为任何关键嵌入的严格鞍端。该结果暗示宽NNS中严格鞍点的常见,这可能是在实践中广泛观察到的宽NNS易于优化的重要原因。
translated by 谷歌翻译
在本文中,我们通过模型 - 操作员数据网络(Mod-Net)提出了一种机器学习方法,用于解决PDE。 Mod-net由模型驱动,以基于操作员表示从数据的正则化求解PDE。对于线性PDE,我们使用DNN来参数化绿色的功能,并获得神经运营商根据绿色的方法近似解。为了训练DNN,经验风险由具有最小方形配方的平均平方损失或控制方程和边界条件的变分制。对于复杂的问题,经验风险还包括一些标签,这些标签在具有廉价计算成本的粗网点上计算,并显着提高了模型精度。直观地,除模型约束外,标记的数据集还可作为正则化。 Mod-Net解决了一个PDE系列,而不是特定的PDE,并且比原始神经运营商更有效,因为需要少量昂贵的标签。我们在求解泊松方程和一维辐射传输方程方面显示Mod-Net非常有效。对于非线性PDE,非线性MOD-NET可以类似地用作ansatz来求解非线性PDE,通过求解几个非线性PDE问题,例如汉堡方程。
translated by 谷歌翻译
了解深神经网络的损失景观结构(DNN)显然是重要的。在这项工作中,我们证明了一个嵌入原则,即DNN“包含”所有较窄DNN的所有关键点的损失景观。更确切地说,我们提出了一个临界嵌入,使得任何临界点,例如较窄的DNN的临界点,例如局部或全局最小值,可以嵌入到目标DNN的临界点/超平面,具有更高的退化性并保持DNN输出功能。关键点的嵌入结构与损耗功能和训练数据无关,显示与蛋白质折叠等其他非凸起问题的显着差异。凭经验,我们发现宽DNN通常被嵌入来自窄DNN的高度简并关键点引起。嵌入原理为广泛DNN的普遍易于优化提供了解释,并且在训练期间揭开潜在的隐式低复杂性正则化。总体而言,我们的工作为DNNS的损失景观提供了骨架及其含义,可以在附近预期更精确和全面的理解
translated by 谷歌翻译
隐式正常化对于了解神经网络的学习非常重要(NNS)。实证工作表明,隐藏神经元的输入重量(隐藏神经元的输入重量由其输入层的重量与隐藏的神经元的重量组成,其偏置术语)与小初始化的隔离取向凝结。冷凝动力学意味着训练隐含地将一个NN定制为一个具有更小的有效尺寸的NN。在这项工作中,我们利用多层网络来表明初始训练阶段中的浓缩方向的最大数量是激活函数的多倍,其中“多重性”是原点的激活函数的多个根。我们的理论分析确认了两种情况的实验,一个是具有任意维度输入的多个尺寸输入的激活函数,其包含许多常见的激活功能,而另一个是具有一维输入和任意多个层的层。这项工作迈向理解初始化的初始化程度的初始训练阶段的凝结程度缩小了缩写,这为未来研究NNS的非线性动态和其隐式正则化效果的初步研究奠定了基础。
translated by 谷歌翻译
深神经网络(DNN)通常从低频到高频学习目标函数,这称为频率原理或光谱偏差。该频率原理阐明了DNN的高频诅咒 - 难以学习高频信息。受频率原理的启发,一系列作品致力于开发克服高频诅咒的算法。出现一个自然的问题:W.R.T.衰减率的上限是多少训练DNN的频率?在这项工作中,通过数值实验证实的我们的理论表明,W.R.T.有关键的衰减率。 DNN训练的频率。低于衰减速率的上限,DNN通过具有一定规律性的函数来插值训练数据。但是,DNN高于上限,DNN通过微不足道的功能插值训练数据,即,在训练数据点,功能仅为零。我们的结果表明,要克服高频诅咒的更好方法是设计一种适当的条件方法,将高频信息转移到低频中,这与以前几种先前开发的算法相吻合,用于快速学习高频信息。更重要的是,这项工作严格地证明了高频诅咒是DNN的内在困难。
translated by 谷歌翻译
多模式传感器的融合在自动驾驶和智能机器人中变得越来越流行,因为它可以比任何单个传感器提供更丰富的信息,从而在复杂的环境中增强可靠性。多传感器外部校准是传感器融合的关键因素之一。但是,由于传感器方式的种类以及对校准目标和人工的需求,这种校准很困难。在本文中,我们通过关注立体相机,热摄像机和激光传感器之间的外部转换,展示了一个新的无目标跨模式校准框架。具体而言,立体声和激光器之间的校准是通过最小化登记误差在3D空间中进行的,而通过优化边缘特征的对齐方式来估计其他两个传感器的热外部传感器。我们的方法不需要专门的目标,并且可以在没有人类相互作用的情况下进行一次镜头进行多传感器校准。实验结果表明,校准框架是准确且适用于一般场景的。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译